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摘 E: 为 应 对 实际 工业 产品 视觉 质量 检测 中 缺陷 罕见 、 尺 寸 小 等 挑战 ， 提 出 了 一 种 仅 需 要 少量 训练 样本 的 小 尺寸 
缺陷 检测 算法 Smooth-DETR。 该 算法 采用 基于 DETR 的 编码 -解码 结构 对 缺陷 类 别 和 位 置 进 行 预 测 ， 该 结构 降 
低 了 参数 量 和 计算 复杂 度 。 因 DETR 强大 的 全 局 特征 学 习 能 力 ， 该 算法 可 从 少量 训练 样本 中 充分 挖 气 产 品 表面 纹理 
特征 ， 从 而 对 打破 了 表面 纹理 连续 性 的 缺陷 检 出 率 高 。 通 过 结合 Smooth-L1 损失 和 GIoU 损失 的 优势 ， 进 一 步 提 升 
了 人 小 尺寸 缺陷 的 回归 精度 。 实 验 结 果 表明 ， 所 提 方 法 检测 性 能 优 于 现 有 先进 检测 模型 。 此 外 ， 仅 用 少量 训练 样本 ， 
该 算法 对 11 类 产品 表面 的 缺陷 检测 平均 精确 率 就 能 够 达到 98% 以 上 。 
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Detection method for small-size defects based on Smooth-DETR 


Zhang Naixue, Zhong Yuzhongi, Zhao Tao, Dian Songyi 
(College of Electrical Engineering, Sichuan University, Chengdu 610065, China) 


Abstract: To deal with challenges of limited and small-size defects in product quality inspection, this paper proposed a method 
for surface-defect-detection of small-size with few training samples (Smooth-DETR) . This method utilized DETR-based 
encoder-decoder to predict the classification and location of defects, which reduced the parameters and complexity. DETR 
has a strong global feature learning capability, which could obtain rich texture features of product surfaces with few samples, 
so that it is easy to detect defects that break the continuity of texture. The combination of Smooth-L1 loss and GIoU loss 
improves the regression accuracy on small-size defect samples. Experimental results show that the proposed method performs 
better than the existing state-of-the-art methods. Moreover, the average detection precision of the proposed method for 11 
different classes of surface defects is higher than 98% with few training samples. 
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0 引言 据 集 检测 的 速度 和 准确 性 ，Zhou 等 人 00 提 出 了 更 高 效 的 

E RCNN 算法 。 该 算法 利用 可 变形 卷 积 网 络 代 替 了 Faster R- 
业 产 品质 量 检测 是 生产 和 运 维 中 的 重要 环节 ， 是 保证 CNN 中 主干 网 络 的 最 后 一 个 阶段 , 并 引入 特征 金字 塔 网 络 和 
产品 外 观 、 质 量 和 性 能 的 关键 。 近 年 来 ， 随 着 深度 学 习 的 发 。 距离 IoU 损失 函数 ， 以 达到 检测 更 加 快速 和 准确 的 目的 。 除 
展 及 其 在 各 个 场景 的 广泛 应 用 山 , 基于 深度 学 习 的 目标 检测 了 基于 目标 检测 的 缺陷 检测 方法 以 外 ， 也 有 不 少 其 他 的 检测 
算法 也 逐渐 应 用 于 表面 缺陷 检测 任务 中 B, 4 以 提高 生产 和 检 方法。 例如 , 由 于 很 多 行业 无 法 获取 足够 的 高 精度 标注 样本 ， 
测 效率 ， 同 时 降低 人 的 主观 意识 对 检测 结果 的 影响 。 与 传统 ”文献 [11] 提 出 了 一 个 混合 监督 网 络 ， 由 分 割 网 络 和 分 类 网 络 
的 缺陷 检测 相 比 ， 基 于 深度 学 习 的 表面 缺陷 检测 算法 更 加 智 ” 两 个 子 网 络 构成 。 该 网 络 利 用 图 像 级 标签 和 区 域 级 标签 混合 
能 化 ， 且 具有 更 好 的 检测 准确 率 和 泛 化 性 回 。 监督 的 方法 达到 缺陷 检测 的 目的 ， 在 一 定 程度 上 减少 了 对 标 
基于 深度 学 习 的 表面 缺陷 检测 任务 可 以 大 致 分 为 基于 检 ， 注 样 本 的 需求 。 另 外 ， 基 于 分 割 的 表面 缺陷 检测 是 指 将 语义 分 
测 的 表面 缺陷 检测 算法 和 基于 分 割 的 表面 缺陷 检测 算法 。 基 00 割 模 型 用 于 解决 表面 缺陷 检测 任务 。 通 常 ， 语 义 分 割 模型 由 编 
于 检测 的 表面 缺陷 检测 通常 可 以 被 视 作 一 个 特殊 的 目标 检测 码 - 解 码 结构 组 成 ,常见 的 有 FCNL2 UNetU?!fI DeepLab v3+04 
和 王 务 。 目 前 目标 检测 技术 以 端 到 端的 深度 学 习 检 测算 法 为 主 ， 等 。 目 前 也 有 不 少 研究 将 语义 分 割 模型 引入 表面 缺陷 检测 任 
分 为 两 大 类 ， 一 类 是 以 Faster R-CNN 为 代表 的 two-stage 检 ZP, 245 55091 UNet 模型 用 于 道路 缺陷 检测 ， 郭 亚 萍 等 09 
MAB], 另 一 类 是 以 YOLO 为 代表 的 one-stage 检测 算法 器。 将 SegNet 网 络 应 用 于 工件 表面 缺陷 检测 中 。 除 了 通用 的 分 割 
Di 等 人 中 首先 使 用 多 组 CNN 对 图 像 进行 分 类 ， 针 对 不 同类 ”模型 以 外 ， 针 对 条 纹 形 的 表面 缺陷 不 易 分 割 这 一 问题 ， 
型 的 缺陷 分 别 训练 不 同 的 卷 积 核 ， 然后， 将 可 能 包含 缺陷 的 ， ScratchNet07 利 用 基于 交叉 最 大 池 化 模块 的 特征 金字 塔 结构 ， 
特征 映射 输入 到 另 一 个 基于 YOLO 的 网 络 中 , 对 缺陷 的 检测 ， 结合 多 层 信息 精确 地 提取 各 个 方向 的 边界 特征 ， 更 关注 边界 
框 进行 回归 。 为 应 对 YOLOv4 的 主干 网 络 复杂 度 较 高 和 难以 节 的 分 割 ， 再 利用 空间 注意 上 采样 模块 ， 确 保 低 分 辩 率 到 
检测 到 小 尺寸 表面 缺陷 等 问题 , Lian 等 人 四 提出 了 YOLOv4- 分 辨 率 特征 传递 的 有 效 性 ， 提 高 了 检测 准确 度 。 实 验证 明 
DefectSP 算法 。 该 算法 利用 深度 可 分 离 卷 积 代替 传统 的 卷 积 于 分 割 的 模型 在 表面 缺陷 检测 任务 中 也 有 着 不 错 的 表现 。 
结构 ， 并 融合 知识 蔡 馏 外， 不 仅 提 升 了 对 小 尺寸 缺陷 检测 准 然而 ， 以 上 这 些 算法 都 依赖 于 卷 积 神经 网 络 (CNN)H51， 
确 率 ， 还 极 大 地 降低 了 模型 复杂 度 。 此 外 ， 为 了 提高 织物 数 ” 并 在 其 基础 上 发 展 而 来 ， 但 卷 积 神经 网 络 更 关注 局 部 特征 而 
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忽视 了 全 局 特征 ， 因 此 基于 CNN 的 检测 算法 对 小 尺度 缺陷 
的 检测 存在 不 足 。Transformer09 则 能 够 捕捉 到 较 大 范围 内 的 
特征 信息 ， 因 此 更 关注 全 局 特征 。 随 着 学 者 们 将 Transformer 
应 用 于 各 个 领域 Pu 21, Caron 等 2 提出 了 基于 Transformer 
的 端 到 端的 目标 检测 模型 一 一 DETR 模型 。DETR 模型 将 目 
标 检 测 任务 转换 为 集合 序列 预测 任务 ， 通 过 简单 的 CNN 提 
取 特 征 ， 再 利用 基于 Transformer 的 编码 -解码 结构 进行 并 行 
地 预测 。DETR 模型 的 提出 和 应 用 ， 为 解决 目标 检测 任务 提 
供 了 一 种 全 新 的 思路 。 

在 工业 产品 质量 检测 中 ， 很 难 获取 到 大 量 经 专家 标注 后 
的 且 种 类 丰富 的 缺陷 样本 ,因此 训练 集 样 本 的 数量 非常 有 限 。 
同时 ， 工 业 产品 表面 常常 出 现 尺寸 较 小 且 不 显著 的 缺陷 ， 这 
对 视觉 缺陷 检测 是 一 个 巨大 的 挑战 。 针 对 这 些 问题 ， 本 文 提 
出 了 一 种 基于 Smooth-DETR 的 产品 表面 小 尺寸 缺陷 检测 算 
法 。 考 虑 到 工业 产品 表面 通常 以 重复 的 结构 性 纹理 作为 背景 ， 
缺陷 的 存在 打破 了 表面 纹理 的 连续 性 ， 因 此 该 算法 利用 
DETR 模型 的 全 局 特征 学 习 能 力 ， 减 少 了 对 训练 样本 数量 的 
需求 ， 提 升 了 缺陷 的 检 出 率 。 该 算法 还 结合 Smooth-Ll 损失 
函数 中 和 GIoU 损失 函数 户 ] 作 为 边框 回归 损失 ， 以 提升 对 小 
尺寸 缺陷 的 回归 精度 和 模型 训练 效率 。 另 外 ， 还 使 用 匈牙利 
算法 来 得 到 分 类 损失 和 回归 损失 的 最 优 匹 配 ， 提 升 算法 整体 
的 检测 准确 率 。 与 基于 CNN 的 端 到 端的 表面 缺陷 检测 算法 
相 比 , 由 于 Smooth-DETR 使 用 了 更 少 的 卷 积 层 , 计算 复杂 度 
更 低 、 参 数量 更 小 。 


1 Transformer 模型 


Transformer 模型 最 初 在 自然 语言 处 理 (NLP) 中 被 提出 。 
模型 舍弃 了 用 于 提取 特征 的 各 种 类 型 的 卷 积 运算 2 E 
based 和 非 极 大 值 抑制 (NMS) 等 后 处 理 方法 , 而 是 全 部 由 注意 
力 机 制 组 成 ， 最 初 用 于 解决 机 器 翻译 任务 。Transformer " 
主要 由 多 个 基于 多 头 注意 力 机 制 的 编码 器 和 解码 器 构成 ， 如 
图 1 所 示 。 每 个 编码 器 和 解码 器 由 多 头 注 意 力 、 前 馈 网 络 和 
层 归 一 化 等 构成 ， 其 基本 组 成 如 图 2 所 示 。 其 中 ， 多 头 注意 
力 机 制 史 为 注意 力 层 提 供 了 多 组 由 查询 向 量 (Query)、 关 键 向 
量 (Key) 和 值 向 量 (Value) 组 成 的 权重 和 矩阵。 假设 含有 个 多 头 ， 
则 多 头 注意 力 机 制定 义 为 


T 
Attention(Q, K,V) = softmax( NA )V 
k 
Q, - QW? K, = KW V, =VW i - 1... h (1) 
head, = Attention(Q,, K;,V,) 
Multihead = Concat(head,...., head, )W^ 


Kp, Ja, 缩放 因子 ; Wew WwW wo 均 为 权重 和 矩阵。 经 过 训练 
后 ， 输 入 向 量 被 投影 到 不 同 的 子 空间 中 ， 使 得 模型 可 以 关注 
不 同位 置 的 信息 , 提升 了 注意 力 层 的 性 能 ,与 基于 CNN 的 特 
征 提取 器 相 比 而 言 ， 由 于 Transformer 包含 了 多 个 子 空间 , 故 
更 容易 关注 全 局 特征 。 
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图 1 Transformer 模型 结构 


Fig. 1 Structure of Transformer 
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Ed 2 编码 器 和 解码 器 的 基本 结构 


Fig.2 Structures of encoder and decoder 
2 Smooth-DETR 算法 


2.44 DETR 模型 

DETR 为 端 到 端的 目标 检测 算法 提出 了 一 种 全 新 的 思路 ， 
它 将 CNN 和 Transformer 模型 相 结 合 ， 并 行 地 预测 包含 目标 
和 背景 在 内 的 N 个 对 象 的 类 别 信 息 。 借 助 于 Transformer 模 
型 更 关注 全 局 特征 这 一 特性 ，DETR 模型 也 具有 强大 的 全 局 
特征 学 习 能 力 。 如 图 3 所 示 ， 首 先 将 输入 图 像 分 为 大 小 相同 
的 图 像 块 ， 经 过 CNN 网 络 对 图 像 块 进行 特征 提取 ， 再 利用 
1x1 的 卷 积 将 特征 图 压缩 成 多 个 一 维 向 量 ， 和 位 置信 息 向 量 
并 送 入 基于 Transformer 的 编码 器 和 解码 器 , N 个 对 象 被 转 
换 成 嵌入 输出 ， 最 后 ， 经 过 一 个 共享 权重 的 前 馈 网 络 将 这 些 
嵌入 输出 向 量 并 行 地 独立 解码 为 N 个 类 别 和 预测 框 。 基 于 
Transformer 的 编码 -解码 结构 并 行 地 预测 整个 输入 ， 因 此 位 


置 编码 尤为 重要 。 位 置 编 码 的 计算 如 下 : 
PEUu2n = sin( pos / 10000? ) ] 
PE, pos 2111) = COS ( pos / 100002/4 ) (2) 


其 中 ，Ppos 表示 图 像 块 的 位 置 ，4 表示 该 向 量 维度 ; 2i 和 2i 
分 别 表示 d 中 偶数 维度 和 奇数 维度 。 由 三 角 函 数 性 质 可 知 ， 


每 个 位 置 pese k 都 能 用 res 位 置 计算 得 到 ， 且 每 个 位 置 的 所 
维度 都 有 独特 的 编码 。 
Q 
N Transformer 
FEN 上 Pon 编码 器 + 解码 器 


FFEN lo Class c 
Box 

no 

| 1 object 


图 3 DETR 结构 图 
Fig.3 Structure of DETR 

受 设 输入 图 像 大 小 为 HxW ， 图 像 通过 CNN 网 络 提 取 后 
的 特征 ， 再 经 过 1x1 的 卷 积 降 维 ， 转 换 后 得 到 DxHW 大 小 的 
向 量 作 为 Transformer 模型 的 输入 。 在 基于 Transformer 的 编 
码 阶段 , 注意 力矩 阵 大 小 为 (HxW)x(HxW) ， 如 图 4 左 图 , 表 
示 了 某 一 个 token 对 应 的 注意 力矩 了 泗 。 注 意 力 矩阵 上 的 某 一 

个 点 ， 实 际 对 应 此 token 所 表示 的 特征 块 上 两 个 不 同 的 点 ， 


AJE HEF] 
q TF 其 


ChinaXiv 合 作 期 刊 
录用 定稿 KAE, 5. 基于 Smooth-DETR 的 产品 表面 小 尺寸 缺陷 检测 算法 第 39 卷 第 8 期 


如 图 4 右 图 所 示 。 又 因为 编码 器 的 输入 token 数量 与 特征 图 ”的 使 用 了 4 个 点 的 损失 值 ， 并 没有 关注 到 4 个 值 之 间 的 相关 
像素 个 数 相同 ， 所 以 这 就 确定 了 一 个 框 。 因 此 ，DETR 模型 ”性 609， 不 能 真实 地 反映 预测 框 和 期 望 框 之 间 的 包含 关系 。 医 
在 目标 检测 任务 具有 独特 的 优势 。 此 外 ， 缺 陷 的 存在 破坏 了 ”此 , 在 计算 回归 损失 时 , 还 引入 了 GIOUN, 它 将 预测 框 当 作 
产品 表面 纹理 连续 性 ， 而 全 局 特征 学 习 能 力 强 的 DETR 模型 个 整体 进行 回归 。 

能 挖掘 到 更 丰富 的 表面 纹理 特征 ， 因 此 其 更 易于 实现 产品 表 
面 的 缺陷 检测 。 


--- L2 
一 Smooth-L1 
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图 4 注意 力矩 阵 与 特征 图 对 应 关系 x 
Fig. 4 Correspondence between attention matrix and feature map 图 5 损失 函数 对 比 图 
此 外 ， 与 基于 CNN 的 目标 检测 不 同 的 是 ，DETR 模 Fig. 5 Comparison of loss function 
型 采用 基于 Transformer 的 编码 器 和 解码 器 进行 预测 。 因 ~ ; ; 
Po ines ^V Bot | Bleah) (a 05)] 
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量 都 非常 小 。 P 
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DETR 模型 对 解码 器 的 嵌入 输出 向 量 进行 解码 预测 ， 为 式 (3) 展 示 是 了 GIoU 的 计算 过 程 。 其 中 s(ro.5) o GL ES 
了 优化 模型 ， 需 要 通过 损失 函数 不 断 减 小 预测 值 与 标签 值 之 了 Bw 和 5 的 最 小 包围 矩形 ;3(%w5)\(%w 56) 表示 BO 中 没有 
间 的 偏差 使 模型 达到 最 优 。 为 了 提升 检测 准确 率 ， 本 文 提 出 “覆盖 ao 和 5 的 面积 。 
了 Smooth-DETR 算法 , 用 Smooth-L1 和 GIoU 损失 函数 相 结 除 此 之 外 ， 为 了 保证 预测 框 与 期 望 框 之 间 的 最 大 匹配 ， 
合作 为 回归 损失 ， 对 检测 边框 进行 预测 回归 。Smooth-DETR 以 及 预测 位 置 与 类 别 一 一 对 应 ， 本 文 还 采取 了 匈牙利 算法 P2]， 
算法 不 仅 有 利于 提升 对 小 尺度 缺陷 的 回归 精度 ， 增 加 检测 准 ” 即 寻 找 增 广 路 径 ， 达 成 类 别 和 预测 框 的 最 佳 匹配 。 如 式 (6) 所 
确 率 ， 还 有 利于 提高 训练 鲁 棒 性 和 训练 效率 。 除 了 回归 损失 ” 示 ， 匈 牙 利 算法 选取 损失 值 最 小 作为 最 佳 匹 配 。 
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出 之 间 的 距离 ， 通 过 不 断 学 习 优 化 模型 预测 每 个 类 别 的 概率 式 (7) 描 述 了 预测 框 的 损失 函数 ， 主 要 由 Smooth-LI 和 

与 one-hot 形式 的 标签 类 别 之 间 的 距离 ， 达 到 正确 分 类 的 GIoU 共同 决定 ， 其 中 和 8 分别 表 示 GIoU 损失 函数 和 

的 。 假 设 概率 分 布 疡 ,为 预测 输出 ，< 为 期 望 输出 ， 则 交叉 粹 ”Smooth-L1l 损失 函数 的 权重 系数 。 基 于 此 , 本 文通 过 Smooth- 

损失 函数 定义 为 L1 结合 GIoU 损失 函数 作为 边框 回归 损失 的 策略 ， 不 仅 提 升 
— — 6) 了 算法 的 检测 准确 率 ， 使 Smooth-DETR FATEN 
e i x) . 样本 上 也 有 很 好 的 检测 效果 ， 还 加 快 了 算法 收敛 速度 ， 提 升 


2.2.2 回归 损失 了 模型 训练 效率 。 
在 许多 产品 质量 检测 应 用 场景 下 ， 难 以 收集 到 大 量 的 含 A 

有 标注 的 缺陷 样本 ,并且 缺 陷 的 形态 大 小 各 异 , 具有 多 样 性 ; 3 ”实验 分 析 
另外 ， 产 品 表 面 常 常 出 现 小 尺寸 缺陷 ， 而 现 有 的 在 小 尺寸 缺 31 数据 集 


陷 样 本 上 表现 较 好 的 模型 往往 结构 复杂 ， 计 算 量 大 。 为 了 提 为 了 证 明 本 文 所 提 算 法 对 各 种 类 型 的 缺陷 ， 尤 其 是 低 对 
并 对 小 尺 才 缺 陷 的 检测 准确 率 ， 本 文采 用 Smooth-L1l 损失 函 — 比 度 缺 隐 有 着 良好 的 检测 效果 ， 本 文选 取 了 两 个 公开 数据 集 


数 和 GIoU 损失 函数 相 结合 的 方式 ， 使 算法 不 仅 能 够 对 小 尺 ”进行 实验 。 
寸 的 缺陷 稳定 回归 ， 提 高 检测 准确 率 ， 还 可 以 快速 收敛 到 更 3.1.1 DAGM 2007 
高 的 精度 。 DAGM 2007 数据 集 是 德国 模式 识别 协会 提供 的 ， 包 含 
10 种 不 同类 型 的 人 造 缺 陷 数 据 集 ,， 如 图 6 第 一 行 和 第 三 行 所 
示 ， 其 中 每 个 子 类 有 约 80 张 带 缺 陷 的 训练 样本 和 600 张 测 
试 集 样 本 。 在 该 数据 集中 ， 缺 陷 形 态 、 大 小 各 异 ; 还 包括 了 
小 尺寸 缺陷 。DAGM 2007 数据 集中 的 所 有 样本 大 小 均 为 
Hp, ho 表示 第 i 个 索引 的 期 望 框 ,5 为 第 i 个 索引 的 预测 框 。 512x512 ， 且 在 实验 过 程 中 均 没有 改变 图 像 大 小 和 数据 增强 。 

相 比 于 Ll 损失 函数 和 1L2 损失 函数 而 言 ，Smooth-L1 损 3.1.2 KolektorSDD 
失 函 数 结合 了 二 者 的 优点 ， 其 定义 如 式 (4)。 如 图 5 所 示 ， 在 KolektorSDD 数据 集 是 Kolektor 团队 在 受 控 工 业 环境 下 
训练 初期 ， 预 测 框 和 期 望 框 的 距离 过 大 ，Smooth-L1 损失 函 ”所 采集 的 真实 的 电子 换 向 器 表面 缺陷 样本 ， 如 图 7(a) 所 示 ， 
数 很 好 地 限制 了 预测 框 的 梯度 ， 避 免 了 “梯度 爆炸 ”并且 在 KA 52 张 缺 陷 图 像 和 347 张 无 缺陷 图 像 。 
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保留 了 模型 快速 收敛 特性 的 同时 ， 使 模型 更 加 和 鲁 棒 ; 而 在 训 3.2 实验 环境 

练 后 期 ， 预 测 框 和 期 望 框 的 距离 过 小 ， 损 失 函 数 在 0 附近 波 本 文 在 两 个 公开 数据 集 上 进行 了 实验 ， 并 与 现 有 的 方法 

动 时 也 存在 导数 ， 模 型 可 以 收敛 到 更 高 精度 。 进行 对 比 。 所 有 的 实验 均 在 Windows RAF, GPU 采用 的 
但 是 ，Smooth-L1 损失 函数 在 求解 预测 框 时 ， 仅 仅 独 立 。 NVIDIA GeForce RTX3060Ti， 其 显存 为 16GB; CPU 采用 的 
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Interi7-10700F, 内 存 为 32GB 。 本 实验 采用 Python 编写 代码 ， 
深度 学 习 框 架 为 PyTorch 。 
3.8 评价 指标 

为 了 定量 地 分 析 实 验 结果 ,验证 本 文 所 提 方 法 的 有 效 性 ， 
本 文选 取 了 FP、FN、 平 均 精 确 率 (AP)、mAP、 和 AUC 等 作 
为 评价 指标 29。FP 指 假 阳性 , 表示 被 误 报 为 缺陷 的 正常 样本 ; 
FN 指 假 阴性 ， 表 示 被 误 报 为 正常 样本 的 缺陷 样本 。AP 是 指 
平滑 后 的 Precision-Recall 曲线 与 坐标 轴 所 围 成 的 面积 ， 这 使 
得 AP 能 够 精确 地 表示 不 同 闵 值 下 的 综合 模型 性 能 ， 其 中 ， 
Precision 和 Recall 分 别 表示 查 准 率 和 查 全 率 ; mAP 则 是 所 有 
类 别 AP 的 均值 .AUC 是 ROC 曲线 与 坐标 轴 所 围 成 的 面积 ， 
ROC 曲线 由 FPR = FP/GCN+FP) 和 TPR=IP1GP+FN) 为 横 纵 坐 
标 构 成 , 其 中 TN 指 预测 正确 的 正常 样本 , TP 表示 预测 正确 
的 缺陷 样本 。 由 于 ROC 曲线 不 随 样 本 分 布 变换 而 变换 , DS 
此 ROC 曲线 常常 用 于 样本 类 别 不 均衡 的 情况 。 在 ROC I 
线 不 能 直观 地 展示 分 类 结果 好 坏 时 ， 往 往 选 用 AUC 更 清 


n 


c 


楚 地 描述 分 类 结果 好 坏 。 
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(d) 检测 结果 
图 6 DAGM 2007 数据 集 的 检测 结果 
Fig. 6 Detection results on DAGM 2007 dataset 
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(b) 检测 结果 
图 7 KolektorSDD 数据 集 的 检测 结果 
Fig.7 Detection results on kolektorsdd dataset 
3.4 实验 结果 分 析 
3.4.1 5 DETR 模型 实验 对 比分 析 
由 于 本 文 受 DETR 模型 启发 ， 同 时 为 了 验证 本 文 所 提 的 


Smooth-DETR 算法 不 仅 在 有 限 训练 样本 的 情况 下 检测 效果 
良好 ， 而 且 在 训练 过 程 中 可 以 快速 收敛 到 较 高 精度 。 本 文 实 
验 设置 与 DETR 模型 在 DAGM 2007 数据 集 上 进行 对 比 。 实 
验 中 ， 分 别 在 每 个 子 类 中 选取 20 张 缺 陷 图 片 作 为 训练 集 、5 
张 样本 作为 验证 集 ; 两 种 算法 在 整个 训练 过 程 中 均 选 取 40 个 
epoch， 权 重 衰 减 系数 为 0.0001，Batchsize 设置 为 4。 采 取 
AdamW 优化 器 ,初始 学 习 率 为 0.0001, 每 15 个 epoch 学 习 率 
降低 10 倍 。 
图 8 展示 了 两 种 算法 在 训练 过 程 中 不 同 的 epoch 时 ， 训 
练 集 的 错 分 率 、 总 损失 和 mAP 的 变化 。 由 于 本 文 所 提出 的 
Smooth-DETR 采用 了 Smooth-L1 损失 函数 , 相 比 于 DETR 模 
型 ，Smooth-L1 损失 函数 在 预测 框 和 期 望 框 的 距离 十 分 相近 
时 也 存在 导数 ， 使 模型 可 以 收敛 到 更 高 精度 ， 并 且 对 小 尺 
十 缺陷 也 能 稳定 回归 ;， 同时 ， 因 为 GIoU 损失 函数 在 训练 
前 期 也 具有 梯度 ， 结 合 Smooth-L1 损失 函数 在 训练 前 期 快 
速 收敛 的 优点 ， 模 型 可 以 更 加 快速 、 稳 定 地 收敛 ， 提 高 了 
训练 效率 。 另 外 ， 图 9 展示 了 验证 集中 各 指标 的 变换 ， 从 
9 的 错 分 率 变化 曲线 可 以 看 出 ， 大 约 在 14 个 epoch 时 ， 
Smooth-DETR 算法 已 经 能 够 正确 分 类 , 并 且 整 体 精 度 高 于 
DETR 模型 。 
loss 


- DETR 


M 1o zo 3o do M 10 2b 30 40 M 1o 20 30 do 
图 8 训练 集 指标 变化 曲线 
Fig.8 Metrics of training set 
class error - loss mAP 
s. | zx DETR || Jy Ps DETR E 
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图 9 验证 集 指 标 变化 曲线 


Fig.9 Metrics of validation set 
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为 了 证 明 Smooth-DETR 在 多 种 类 型 的 缺陷 上 有 更 良好  ” 检测 任务 ， 尤 其 是 当 训 练 数据 不 充分 时 。 
的 表现 , 尤其 对 低 对 比 度 、 小 尺寸 的 缺陷 检测 效果 对 比 DETR 表 2 DAGM 2007 数据 集 上 的 对 比 结果 
有 所 提升 ， 本 文选 取 了 约 1 万 张 包含 这 10 个 不 同 的 缺陷 的 Tab.2 Comparison results on DAGM 2007 dataset 
样本 作为 测试 集 ， 进 行 实 验 ; 与 DETR 模型 的 检测 结果 对 比 方法 AUC/% mAP 
如 表 1 所 示 。 ScratchNet! "(N-15, M=0) 93.7 94.8 
为 了 兼顾 对 错误 样本 的 分 类 情况 ， 并 且 分 析 算 法 对 不 同类 — (N=5, M-1000) 94.9 91.5 
型 的 缺陷 的 检测 能 力 , 选取 了 AUC 指标 对 每 个 子 类 缺陷 的 检测 TIERS (N=15, M-1000) 100 100 
结果 进行 定量 地 展示 。 表 1 对 DAGM 2007 数据 集 上 每 种 缺陷 Faster-RCNND7 (N=15, M=0) 88.3 90.4 
的 检测 结果 的 AUC 进行 对 比 ， 从 表 中 可 以 清晰 地 看 出 在 分 割 决策 网 络 P3 (N=15, M=0) 85.1 86.5 
Class3 Class5 和 Class9 这 些 尺 寸 较 小 的 低 对 比 度 缺陷 上 , 由 于 YOLOv4-DefectSPI (N=15, M=0) 89.8 92.2 
Smooth-L1 和 GIoU 损失 函数 相 结合 能 对 目标 缺陷 的 边框 更 精 Smooth-DETR(N-15, M-0) 98.0 98.5 
确 的 回归 ， 使 得 本 文 所 提出 的 算法 的 检测 性 能 有 明显 的 提升 。 在 许多 产品 质量 检测 应 用 中 ， 为 了 方便 检测 、 提 高 检测 
另外 ，Smooth-DETR 算法 在 Class4 和 Class10 这 类 缺陷 纹理 与 效率 以 及 借助 于 机 器 代替 人 工 完 成 复杂 的 检测 任务 ， 检 测 设 
产品 表面 纹理 具有 相似 性 的 样本 上 也 有 更 好 的 表现 。 综 合 以 上 ， 备 逐 步 趋 向 于 小 型 化 便携 式 设备 ， 不 可 避免 地 要 求 检 测算 法 
说 明了 Smooth-DETR 在 各 种 形状 和 纹理 的 缺陷 样本 上 有 很 好 足够 简单 。 也 就 是 说 ， 工 业 场 景 下 的 表面 缺陷 检测 不 仅 需要 
的 检测 效果 ， 尤 其 对 小 尺寸 缺陷 也 有 着 很 好 的 检测 效果 。 关注 检测 结果 ， 模 型 的 大 小 和 检测 速度 也 同样 重要 。 表 3 给 
表 1 AUC 指标 对 比 结果 出 了 以 上 六 个 模型 的 参数 量 和 检测 时 间 。 如 表 3 所 示 ， 
Tab.1 Comparison results of AUC ScratchNet 模型 复杂 度 较 高 ， 会 消耗 大 量 的 计算 资源 ， 检 测 
数据 集 AUC/% 时 间 也 较 长 。 虽 然 分 割 决策 网 络 和 YOLOv4-DefectSP 的 模 
Smooth-DETR DETR?” 型 复杂 度 小 、 r e 
Class 1 97.6 97.1 模型 的 检测 性 能 相对 较 差 。 而 对 于 通用 的 目标 检测 网 络 
Class 2 98.7 98.2 Faster-RCNN 而 言 , 因为 使 用 了 大 量 的 卷 积 层 , 网 络 层 数 深 ， 
Class 3 98.1 96.3 会 消耗 较 多 的 检测 时 间 , 检测 结果 也 并 不 理想 。 由 于 Smooth- 
Class 4 98.3 97.7 DETR 在 特征 提取 阶段 采用 了 基于 CNN 的 网 络 , 使 得 该 算法 
DAGM Class 5 100 96.2 有 一 定 的 参数 量 。 然 而 , 正 因为 Smooth-DETR 结合 了 CNN 
t 2007 Class 6 91.3 95.5 Ej Transformer 的 优点 ,该 算法 不 仅 有 效 地 提取 了 全 局 特征 还 
C Class 7 100 97.3 充分 地 利用 了 缺陷 的 局 部 特征 。 综 上 ，Smooth-DETR 整体 的 
N Class 8 95.8 95.6 实验 结果 最 佳 ， 保 证 检测 速度 的 同时 ， 还 保持 了 较 高 的 检测 
Ce Class 9 100 99.3 精确 率 。 
NI Clan 100 953 表 3 ”参数 量 和 检测 时 间 对 比 
3.4.2 DAGM 2007 实验 结果 分 析 Tab.3 Comparison of parameter and detection time 
为 了 直观 地 呈现 Smooth-DETR 算法 在 DAGM 2007 数 方法 参数 量 检测 时 间 / 秒 / 张 
据 集 上 的 检测 结果 ， 图 6 展示 了 10 种 不 同类 型 缺陷 的 检测 ScratchNet! 51 Mio 0.92 
结果 。 图 6(a) 和 (c) 是 原 图 , 图 6(b) 和 (d) 是 对 应 的 检测 结果 。 混合 监督 网 络 0 30 Mio 0.67 
为 了 清楚 地 展示 缺陷 ， 还 在 原 图 中 添加 了 缺陷 的 放大 图 。 在 Faster-RCNNP7 41 Mio 1.03 
这 10 种 不 同类 型 的 缺陷 中 ， 包 括 了 Classi, Class3, Class5 分 割 决 策 网 络 P9 2 Mio 0.32 
和 Class8 这 类 较 小 尺寸 的 低 对 比 度 缺 陷 , 它们 的 缺陷 纹理 与 YOLOv4-DefectSP™ 10 Mio 0.41 
产品 表面 纹理 极为 相似 ， 以 及 Class4 和 Class10 这 类 背景 和 Smooth-DETR 37 Mio 0.52 
缺陷 都 具有 明显 边缘 特征 的 样本 。 另 外 ， 在 该 数据 集中 ， 大 34.3 KolektorSDD 实验 结果 分 析 
多 类 别 的 表面 都 是 重复 的 结构 性 纹理 ， 缺 陷 破坏 了 这 种 连续 为 了 证 明 Smooth-DETR 算法 适用 于 不 同 产品 的 表面 缺 
性 ， 而 本 文 所 提出 的 算法 具有 强大 的 全 局 特征 学 习 能 力 ， 因 陷 检 测 ， 本 文 还 在 不 同 的 数据 集 上 进行 实验 。 
此 本 文 所 提出 的 算法 在 所 有 类 型 的 缺陷 上 都 有 很 好 的 检测 效 图 7 展示 了 本 文 所 提出 的 方法 在 真实 的 电子 换 向 器 缺陷 
果 ， 尤 其 是 在 Class9 这 类 分 辩 率 低 于 17X17 像素 的 小 尺寸 “KolektorSDD 数据 集 上 的 检测 结果 。 图 7(a) 和 (c) 分 别 是 有 缺 
缺陷 上 的 检测 结果 依然 很 准确 。 从 图 6 中 可 以 看 出 , Smooth- 陷 原 图 和 无 缺陷 原 图 ; 图 7(b) 和 (qd) 分 别 是 对 应 的 检测 结果 图 。 
DETR 不 管 在 低 对 比 度 缺 陷 样 本 还 是 小 尺寸 样本 上 ， 检 测 框 ”从 图 7 可 以 看 出 , Smooth-DETR 算法 正确 地 识别 电子 换 向 器 
能 够 准确 的 回归 缺陷 所 在 位 置 ， 对 不 同 的 缺陷 类 型 也 能 准确 。 缺陷, 说 明 Smooth-DETR 算法 除了 在 DAGM 2007 数据 集 上 
分 类 ， 有 很 好 的 检测 效果 。 有 不 错 的 检测 效果 ， 还 可 以 适用 于 不 同 产品 的 检测 。 
进一步 地 ， 本 文 将 所 提 Smooth- DETR 方法 与 最 新 的 表 前 ， 基 于 有 监督 的 检测 算法 需要 对 大 量 的 含有 标签 的 
面 缺 陷 检 测算 法 一 一 ScratchNetLL7、 混 合 监 督 网 络 00、Faster- 样本 进行 长 时 间 训 练 以 获得 较 好 的 检测 效果 ， 而 在 实际 产品 


RCNNP7、 分 类 决策 网 络 29 和 NR ERE] 在 DAGM 质 检 应 用 中 , 很 难 获取 到 足够 多 的 缺陷 样本 。 本文 将 Smooth- 
2007 数据 集 上 进行 比较 , 对 比 结果 如 表 2 所 示 。 表 2 中 N 表 DETR 算法 与 DeepLab v3+、UNet 和 混合 监督 网 络 分 别 在 10 
示 区 域 级 标签 样本 ，M 表示 图 像 级 标签 样本 。 从 表 2 中 可 以 ” 个 和 20 个 样本 的 训练 集 上 进行 了 比较 ， 结 果 如 表 4 所 示 。 
看 出 , Smooth-DETR 的 检测 性 能 要 远 高 于 ScratchNet, Faster- DeepLab v3+ 和 混合 监督 网 络 都 是 现 有 先进 的 表面 缺陷 检测 
RCNN、 分 类 决策 网 络 、YOLOv4-DefectSP 以 及 仅 使 用 5 张 ” 算法。 实验 中 ， 本 文选 用 了 性 能 表现 最 佳 的 超 参数 。 值 得 说 
区 域 级 标签 样本 和 约 1000 张 含 图 像 级 标签 的 样本 训练 的 混 。“” 明 的 是 , Smooth-DETR 算法 仅 需 矩 形 框 标注 缺陷 的 大 致 范围 ， 
合 监督 网 络 ， 其 检测 性 能 几乎 媲美 使 用 了 有 15 张 区 域 级 标 ”而 DeepLab v3, UNet 和 混合 监督 网 络 需 精 确 地 标注 缺陷 像 
签 样本 和 额外 约 1000 张 含 图 像 级 标签 的 样本 训练 的 混合 览 素 。 从 表 4 可 以 看 出 ，DeepLab v3+ 在 20 张 训 练 集 时 ， 与 10 
督 网 络 。 表 2 证 明了 本 文 所 提 算 法 能 适应 多 类 产品 表面 缺陷 。 ” 张 训练 集 的 检测 精确 率 有 明显 的 提升 ; UNet 对 训练 样本 数量 
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敏感 ， 这 两 个 方法 总 体检 测 结果 不 佳 。 
的 全 局 特征 学 习 能 力 ，Smooth-DETR 算法 在 仅 有 20 张 样本 
行 训练 后 得 到 的 模型 ， 其 AUC. 和 平均 精确 率 均 高 于 
DeepLab v3+ 和 混合 监督 网 络 。 实 验 说 明了 Smooth-DETR 中 
Transformer 结构 有 更 强 的 特征 学 习 能 力 , 可 以 从 更 少 的 样本 
FP 学 习 到 缺陷 特征 ， 从 而 达到 在 少 样本 情况 下 的 高 检 出 率 ， 
用 于 解决 质量 检测 应 用 中 缺少 大 量 的 训练 样本 而 造成 的 检测 
不 准确 的 问题 。 
K KolektorSDD 数据 集 上 的 对 比 结果 
Tab.4 Comparison results on kolektorsdd dataset 
ig LEE AUI 
10 20 10 20 10 20 10 20 
AUC/% 77.5 95.7 881 81.8 96.5 98.8 95.6 99.8 
AP/% 34.9 89.2 70.33 574 891 94.44 91.0 98.9 


ri 


于 Transformer 强大 


EE 


n 


DeepLab v3! UNetl?! Smooth-DETR 


指标 


FP 38 2 6 8 3 2 1 0 
FN 17 4 11 17 3 1 4 1 
4 ”结束 语 


针对 产品 质量 检测 中 ， 缺 陷 样 本 有 限 、 形 状 不 规则 、 尺 
寸 较 小 J 
本 文 提 出 了 用 于 产品 表面 小 尺寸 缺陷 检测 的 Smooth-DETR 
算法 。 该 算法 利用 DETR 模型 强大 的 全 局 特征 学 习 能 力 ， 提 
升 了 对 破坏 产品 表面 纹理 连续 性 的 缺陷 的 检 出 率 ;， 另外 ， 该 
算法 采用 Smooth-L1 和 GIoU 共同 作为 边框 回归 损失 函数 ， 

提升 了 对 小 尺寸 缺陷 的 检测 准确 率 。 同 时 该 算法 比 现 有 的 基 
于 CNN 的 检测 算法 参数 量 更 小 , 计算 复杂 度 更 低 。 实 验 结果 
显示 , 该 算法 在 11 种 不 同类 型 的 缺陷 数据 集 上 都 有 不 错 的 检 
测 结果 ， 说 明了 该 算法 具有 普 适 性 。 与 DETR 算法 相 比 ， 该 
算法 不 仅 在 训练 阶段 能 更 快速 地 回归 到 更 高 精度 ， 还 具有 更 


H 


i EAE XS Fr DU FS Uf R UE PP, 与 现 有 的 检测 算法 相 比 , Smooth- 
DETR 算法 可 以 利用 更 少 的 训练 样本 , 得 到 更 好 的 检测 性 能 。 
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